Data Science merupakan salah satu ranah Ilmu Pengetahuan yang mana belum lama ini sedang Booming. Salah satu hal yang membuat ilmu ini dikenal banyak orang adalah ketika Timnas Jerman memenangkan Piala Dunia. Salah satu Faktor yang membuat Timnas Jerman menang ialah adanya peran Data Scientist, yang mana mengumpulkan data-data dari seluruh lawan Jerman seperti pola permainan yang mana data tersebut dibentuk dengan model Machine Learning. Dengan demikian, Tim Jerman dapat mengetahui cara mengalahkan lawan-lawannya berdasarkan pola permainan yang telah dianalisis.
Contoh lain, ketika kita ke supermarket terdapat bundling dalam membeli sebuah produk, seperti bundling produk shampoo dan soft drink. Bundling tersebut dibentuk berdasarkan pola pembelian yang dilakukan oleh para pelanggan. Lebih lanjut, berdasarkan historis data diketahui bahwa pelanggan yang membeli shampoo biasanya ikut juga membeli minuman. Setelah dianalisis kebiasan tersebut memiliki probabilitas atau peluang yang besar, dengan begitu untuk meningkatkan penjualan dilakukanlah bundling produk.
Aplikasi Data Scientist selanjutnya adalah rekomendasi produk. Misalnya ketika kita hendak membeli suatu barang di Ecommerce, maka akan muncul rekomendasi-rekomendasi produk yang mana berkaitan dengan barang yang hendak kita beli. Rekomendasi produk tersebut dibentuk berdasarkan pengumpulan data yang mana data-data tersebut dicari keterkaitan atau hubungan antar satu sama lain. Ketika ditemukan terdapat hubungan misalnya antara Mouse dengan Earphone maka ketika seseorang membeli Mouse, maka akan muncul rekomendasi produk Earphone.
Saat ini hampir seluruh sektor industri mengaplikasi Data Analytics dalam meningkatkan performa perusahaan. Dengan demikian, Harvard Business Review menobatkan Data Scientist sebagai pekerjaan paling seksi di Abad 21. Sebelumnya pekerjaan terseksi dipegang oleh Sektor Perminyakan, namun semakin hari minyak berkurang jumlahnya sedangkan data semakin hari semakin bertambah, oleh sebab itu pekerjaan data scientist menjadi suatu yang potensial.
Data Scientist merupakan Ilmu baru yang mana gabungan dari beberapa ilmu yang sudah ada. Ilmu-ilmu tersebut adalah Matematika, Statistika, Computer Science/IT, Domains/Business Knowledge.
Secara spesifik, Data Science adalah sebuah profesi yang mana sebagai problem solver (menyelesaikan masalah) berdasarkan data. Misal terdapat permasalahan di suatu perusahaan, maka dilakukan analisis yang mana dapat memberikan solusi atas permasalahan tersebut.
Jika tidak terdapat permasalahan maka harus dicari permasalahan. Biasanya Data Scientist menempel dengan suatu produk di dalam perusahaan, yang mana dapat meningkatkan kinerja atau mengoptimalkan produk tersebut
Seperti yang telah disebutkan sebelumnya, terdapat peran Data Science di hampir seluruh Industri. Misalnya di Perusahaan Telkomsel, yang mana Data Scientist membuat model Machine Learning untuk Customer Segmentation. Dari model tersebut, promosi-promosi yang ditawarkan oleh telkomsel sudah tersegmentasi sesuai behavior atau karakteristik customer. Dengan demikian, probabilitas atau peluang customer dalam menggunakan promo tersebut maka lebih besar.
Jika di Sektor Pemerintah, misalnya ingin mengurangi kemiskinan. Maka Data Scientist akan mencari tahu faktor-faktor apa saja yang menyebabkan kemiskinan di setiap daerah, dengan demikian treatment atau penyelesaian masalah kemiskian dapat maksimal di setiap daerah.
Descriptive Analytics merupakan analisis deskripsi yang mana melihat data berdasarkan gambaran umumnya. Dari data tersebut dapat diketahui apa yang sedang terjadi. Misalnya melihat ukuran pemusatan: mean, median, modus, ukuran penyebaran standar deviasi, visualisasi plot data. Contoh penerapan seperti Tren Penjualan.
Diagnostic Analytics: Bagaimana hal tersebut dapat terjadi. Misalnya mencari korelasi. Contohnya terjadi penurunan penjualan, dengan demikian dicari faktor yang menyebabkan terjadinya penurunan penjualan berdasarkan korelasi penjualan dengan faktor-faktor tersebut.
Predictive Analytics: Apa yang akan terjadi di masa depan. Kita membuat prediksi terkait suatu hal, misalnya membuat prediksi penjualan bulan depan atau tahun depan.
Prescriptive Analytics: Mencoba untuk mendeploy atau mengimplementasi apa yang sudah kita kerjakan sebelumnya. Pengimplemetasian tersebut dilakukan di dalam sistem, yang mana dapat bekerja secara otomatis.
Data Analyst bisanya hanya sampai Diagnostic analytics. Sedangkan Data Scientist hingga presciptive analytics.
+ Legal
Syarat-syarat apa saja untuk menjadi Data Scientist:
Terdapat 6 tahapan alur kerja Data Scientist
Pada tahap ini, kita fokus memahami proses serta permasalah-permasalah yang terdapat di bisnis.
Key Questions:
Use Case : Customer Segmentations
Objective / Problem Statement
Untuk mengurangi risiko dalam memutuskan di mana, kapan, bagaimana, dan kepada siapa produk, layanan, atau merek akan dipasarkan
Untuk meningkatkan efisiensi pemasaran dengan mengarahkan upaya secara khusus ke segmen yang ditentukan dengan cara yang konsisten dengan karakteristik segmen tersebut.
Business Benefit
Membantu Tim Pengembangan Bisnis untuk menciptakan diferensiasi produk berdasarkan karakteristik masing-masing pelanggan
Mengoptimalkan customer retention rate
Mengetahui cara mentreatment pelanggan sesuai dengan kriteria/karakteristiknya.
Expected Outcome:
Dashboard berisi semua segmentasi pelanggan dan tingkat retensi (menambahkan profitabilitas untuk setiap pelanggan harus menjadi nilai tambah)
List produk paling populer untuk setiap segmen pelanggan
Methodology / Analytic Technique
Descriptive analysis (Aggregating, Transforming, Joining the data)
Segment Analysis (e.g. Demographic segmentations, Behaviour Segmentations, etc.)
The data understanding phase starts with an initial data collection and proceeds with activities in order to get familiar with the data, to identify data quality problems, to discover first insights into the data, or to detect interesting subsets to form hypotheses for hidden information.
Key Questions:
Dengan menggunakan kasus yang sama seperti sebelumnya, kita mengetahui sumber data yang kita perlukan terdapat di database perusahaan. Dengan menggunakan SQL kita dapat memperoleh data tersebut.
Transactional data
Demographic data
What
Pengolahan data menjadi format yang lebih mudah diolah dan lebih bermanfaat menjadi input model
Why
Garbage in Garbage out: ketika datanya tidak bagus maka output atau hasilnya juga tidak bagus
Format data tidak selalu rapi/mudah dibaca (tidak sesuai)
Mentransformasi data menjadi bentuk yang lebih bernilai
Alasan:
Cleaning Dataset:
Preprocessing Dataset:
Data Preparation
What
Membuat model machine learning / model statistika menggunakan data yang sudah dipreparation untuk mendapatkan hasil yang diinginkan. Dapat juga menggunakan model descriptive atau diagnostic tergantung kebutuhan
Why
Menyelesaikan masalah dengan pendekatan data (data driven)
Memanfaatkan kemampuan komputasi pada mesin untuk menyelesaikan masalah
Machine Learning adalah Kemampuan mesin untuk melakukan tugas tertentu yang dilakukan oleh manusia tanpa secara eksplisit diprogram untuk melakukannya tugas itu. Jadi kita hanya perlu melakukan modeling satu kali, untuk selanjutnya model tersebut akan berjalan secara otomatis. Sebagai contoh credit scoring dalam melakukan peminjaman uang. Maka kita membuat model credit scoring yang mana customer mengisi data di app atau website, maka hasilnya akan menentukan apakah customer layak atau tidak
Terdapat 3 jenis Machine Learning
Dimana kita sudah memiliki input dan output data. Setelah itu kita modeling yang maka dari model tersebut dapat memprediksi input-input baru yang belum ada outputnya
Semi Supervised Learning
Merupakan gabungan antara supervised dan unsupervised. Misalnya kita punya 1000 data, yang 600 sudah ada input dan output dan kemudian dibuat model. Dari model yang telah dibuat dari 600 data, maka model tersebut digunakan untuk memprediksi 400 data yang hanya memiliki input.
Modeling
Membangun model machine learning menggunakan metode k-means clustering untuk mengelompokan pelanggan sesuai dengan karakteristiknya. Setelah melakukan clustering maka akan menghasilkan output yang mana berupa kelompok-kelompok yang royal, kolompok medium, kelompok pasif.
What
Mengevaluasi efektivitas hasil pemodelan dan algoritma model itu sendiri
Why
Memastikan performa model sesuai ekspektasi dan tujuan bisnis
Menghindari overfitting atau underfitting terhadap data training
Mengukur kriteria hasil prediksi dari model terhadap data sebenarnya
Menampilkan performa model menggunakan berbagai kriteria evaluasi(akurasi, AUC, recall, spesifisitas, dunn index, dll)
Evaluation
Mengevaluasi hasil clustering(pengelompokan) pelanggan menggunakan kriteria dunn index (Matrix).
What
Mengimplementasi model pada aplikasi atau menjalankan model secara kontinu untuk mendapatkan hasil prediksi secara langsung. Agar model dapat berjalan otomatis.
Why
Agar model dapat berjalan secara mulus pada backend dan membantu menyelesaikan masalah.
Biasanya di tahap ini, Data Scientist bekerjasama dengan Software Engineer
Membuat model kita mampu melakukan prediksi secara otomatis di sebuah sistem
Bekerja sama dengan Machine Learning Engineer untuk mengimplementasikan model
Menggunakan output/ hasil dari model untuk proses selanjutnya
Deployment
Membuat model clustering mampu mengelompokan pelanggan-pelanggan secara otomatis dan real time, sehingga mampu mentreatment pelanggan tersebut dengan lebih tepat.
What
Mengecek apakah model sudah berjalan dengan baik dan secara semestinya
Why
Performa model sangat mungkin berubah seiring waktu
Memastikan model berjalan mulus sesuai ekosistem nya
Menilai performa hasil prediksi model pada data sebenarnya dan real time
Memastikan adanya dampak bisnis yang terukur dari penerapan model
Feedback
Menilai performa model clustering secara berkala, apakah pengelompokannya sesuai
Menilai performa model dari segi bisnis, apakah mampu meningkatkan profit setelah melakukan treatmen yang lebih baik dan sesuai terhadap para pelanggan